The introduction of high-quality image generation models, particularly the StyleGAN family, provides a powerful tool to synthesize and manipulate images. However, existing models are built upon high-quality (HQ) data as desired outputs, making them unfit for in-the-wild low-quality (LQ) images, which are common inputs for manipulation. In this work, we bridge this gap by proposing a novel GAN structure that allows for generating images with controllable quality. The network can synthesize various image degradation and restore the sharp image via a quality control code. Our proposed QC-StyleGAN can directly edit LQ images without altering their quality by applying GAN inversion and manipulation techniques. It also provides for free an image restoration solution that can handle various degradations, including noise, blur, compression artifacts, and their mixtures. Finally, we demonstrate numerous other applications such as image degradation synthesis, transfer, and interpolation.
translated by 谷歌翻译
语义分割是开发医学图像诊断系统的重要任务。但是,构建注释的医疗数据集很昂贵。因此,在这种情况下,半监督方法很重要。在半监督学习中,标签的质量在模型性能中起着至关重要的作用。在这项工作中,我们提出了一种新的伪标签策略,可提高用于培训学生网络的伪标签的质量。我们遵循多阶段的半监督训练方法,该方法在标记的数据集上训练教师模型,然后使用训练有素的老师将伪标签渲染用于学生培训。通过这样做,伪标签将被更新,并且随着培训的进度更加精确。上一个和我们的方法之间的关键区别在于,我们在学生培训过程中更新教师模型。因此,在学生培训过程中,提高了伪标签的质量。我们还提出了一种简单但有效的策略,以使用动量模型来提高伪标签的质量 - 训练过程中原始模型的慢复制版本。通过应用动量模型与学生培训期间的重新渲染伪标签相结合,我们在五个数据集中平均达到了84.1%的骰子分数(即Kvarsir,CVC-ClinicdB,Etis-laribpolypdb,cvc-colondb,cvc-colondb,cvc-colondb和cvc-300)和CVC-300)只有20%的数据集用作标记数据。我们的结果超过了3%的共同实践,甚至在某些数据集中取得了完全监督的结果。我们的源代码和预培训模型可在https://github.com/sun-asterisk-research/online学习SSL上找到
translated by 谷歌翻译
识别息肉对于在计算机辅助临床支持系统中自动分析内窥镜图像的自动分析具有挑战性。已经提出了基于卷积网络(CNN),变压器及其组合的模型,以分割息肉以有希望的结果。但是,这些方法在模拟息肉的局部外观方面存在局限性,或者在解码过程中缺乏用于空间依赖性的多层次特征。本文提出了一个新颖的网络,即结肠形式,以解决这些局限性。 Colonformer是一种编码器架构,能够在编码器和解码器分支上对远程语义信息进行建模。编码器是一种基于变压器的轻量级体系结构,用于在多尺度上建模全局语义关系。解码器是一种层次结构结构,旨在学习多层功能以丰富特征表示。此外,添加了一个新的Skip连接技术,以完善整体地图中的息肉对象的边界以进行精确分割。已经在五个流行的基准数据集上进行了广泛的实验,以进行息肉分割,包括Kvasir,CVC-Clinic DB,CVC-ColondB,CVC-T和Etis-Larib。实验结果表明,我们的结肠构造者在所有基准数据集上的表现优于其他最先进的方法。
translated by 谷歌翻译
本文旨在研究入侵攻击,然后为区块链网络开发新的网络攻击检测框架。具体来说,我们首先在实验室设计和实施区块链网络。该区块链网络将实现两个目的,即为我们的学习模型生成真实的流量数据(包括正常数据和攻击数据),并实施实时实验,以评估我们建议的入侵检测框架的性能。据我们所知,这是第一个在区块链网络中用于网络攻击的实验室中合成的数据集。然后,我们提出了一个新颖的协作学习模型,该模型允许区块链网络中的有效部署来检测攻击。提出的学习模型的主要思想是使区块链节点能够积极收集数据,从其数据中分享知识,然后与网络中的其他区块链节点交换知识。这样,我们不仅可以利用网络中所有节点的知识,而且还不需要收集所有原始数据进行培训,以便在常规的集中学习解决方案等集中式节点上进行培训。这样的框架还可以避免暴露本地数据的隐私以及过多的网络开销/拥堵的风险。密集模拟和实时实验都清楚地表明,我们提出的基于协作的入侵检测框架可以在检测攻击方面达到高达97.7%的准确性。
translated by 谷歌翻译
我们为神经机翻译(NMT)提供了一个开源工具包。新工具包主要基于拱形变压器(Vaswani等,2017)以及下面详述的许多其他改进,以便创建一个独立的,易于使用,一致和全面的各个领域的机器翻译任务框架。它是为了支持双语和多语言翻译任务的工具,从构建各个语料库的模型开始推断新的预测或将模型打包给提供功能的JIT格式。
translated by 谷歌翻译
联邦学习(FL)最近成为网络攻击检测系统的有效方法,尤其是在互联网上(物联网)网络。通过在IOT网关中分配学习过程,FL可以提高学习效率,降低通信开销并增强网络内人检测系统的隐私。在这种系统中实施FL的挑战包括不同物联网中的数据特征的标记数据和不可用的不可用。在本文中,我们提出了一种新的协作学习框架,利用转移学习(TL)来克服这些挑战。特别是,我们开发一种新颖的协作学习方法,使目标网络能够有效地和快速学习来自拥有丰富标记数据的源网络的知识。重要的是,最先进的研究要求网络的参与数据集具有相同的特征,从而限制了入侵检测系统的效率,灵活性以及可扩展性。但是,我们所提出的框架可以通过在各种深度学习模型中交换学习知识来解决这些问题,即使他们的数据集具有不同的功能。关于最近的真实网络安全数据集的广泛实验表明,与基于最先进的深度学习方法相比,拟议的框架可以提高超过40%。
translated by 谷歌翻译
随着人类生活中的许多实际应用,包括制造监控摄像机,分析和加工客户行为,许多研究人员都注明了对数字图像的面部检测和头部姿势估计。大量提出的深度学习模型具有最先进的准确性,如YOLO,SSD,MTCNN,解决了面部检测或HOPENET的问题,FSA-NET,用于头部姿势估计问题的速度。根据许多最先进的方法,该任务的管道由两部分组成,从面部检测到头部姿势估计。这两个步骤完全独立,不共享信息。这使得模型在设置中清除但不利用每个模型中提取的大部分特色资源。在本文中,我们提出了多任务净模型,具有利用从面部检测模型提取的特征的动机,将它们与头部姿势估计分支共享以提高精度。此外,随着各种数据,表示面部的欧拉角域大,我们的模型可以预测360欧拉角域的结果。应用多任务学习方法,多任务净模型可以同时预测人头的位置和方向。为了提高预测模型的头部方向的能力,我们将人脸从欧拉角呈现到旋转矩阵的载体。
translated by 谷歌翻译
头部姿势估计是一个具有挑战性的任务,旨在解决与预测三维向量相关的问题,这为人机互动或客户行为中的许多应用程序提供服务。以前的研究提出了一些用于收集头部姿势数据的精确方法。但这些方法需要昂贵的设备,如深度摄像机或复杂的实验室环境设置。在这项研究中,我们引入了一种新的方法,以有效的成本和易于设置,以收集头部姿势图像,即UET-HEADBETS数据集,具有顶视图头姿势数据。该方法使用绝对方向传感器而不是深度摄像机快速设置,但仍然可以确保良好的效果。通过实验,我们的数据集已显示其分发和可用数据集之间的差异,如CMU Panoptic DataSet \ Cite {CMU}。除了使用UET符号数据集和其他头部姿势数据集外,我们还介绍了称为FSANET的全范围模型,这显着优于UET-HEALPETS数据集的头部姿势估计结果,尤其是在顶视图上。此外,该模型非常重量轻,占用小尺寸图像。
translated by 谷歌翻译
剪辑在零拍传输学习任务上产生了令人印象深刻的结果,并被视为BERT或GPT3等基础模型。具有丰富表示形式的剪辑视觉模型是使用Infonce目标和自然语言监督对特定任务进行微调之前进行预训练的。尽管剪辑在零拍传输学习方面表现出色,但它遭受了解释的问题,也就是说,它的重点是一个或几个功能,同时忽略了其他相关功能。该问题是由于原始多模式数据中未充分提取协方差结构而引起的。我们建议使用现代Hopfield网络来解决解释的问题。他们检索到的嵌入具有富集的协方差结构,该结构源自存储嵌入中特征的共发生。但是,现代的Hopfield网络增加了阻碍学习的Infonce目标的饱和效应。我们建议使用Infoloob目标来减轻这种饱和效果。我们介绍了小说``对比抛弃了一个增压'(Cloob),该小说使用现代的Hopfield网络与Infoloob Opportions一起进行协方差丰富。在实验中,我们将Cloob与概念标题进行预培训后的剪辑和YFCC数据集进行了比较,相对于其在其他数据集上的零拍传输学习性能。 Cloob在所有考虑的架构和数据集中始终在零摄像转移学习上胜过剪辑。
translated by 谷歌翻译
在本文中,我们提出了一个通用框架,以缩放图形自动编码器(AE)和图形自动编码器(VAE)。该框架利用图形退化概念仅从一个密集的节点子集训练模型,而不是使用整个图。加上一种简单而有效的传播机制,我们的方法可显着提高可扩展性和训练速度,同时保持性能。我们在现有图AE和VAE的几种变体上评估和讨论我们的方法,并将这些模型的首次应用于具有多达数百万个节点和边缘的大图。我们取得了经验竞争的结果W.R.T.几种流行的可扩展节点嵌入方法,这些方法强调了对更可扩展图AE和VAE进行进一步研究的相关性。
translated by 谷歌翻译